Content
Context Window(上下文窗口)是 LLM 在单次推理中能同时「看到」的最大 token 数量。超出这个数量,模型就看不到更早的内容了。
Acceptance
常见规模(2025-2026年):
- Claude 3.5 Sonnet:200K tokens(约 15 万汉字,150 页书)
- GPT-4o:128K tokens
- Gemini 1.5 Pro:1M tokens(约 70 万汉字,700 页书)
上下文窗口的「两端」:
- 输入(prompt):你给模型看的所有内容——系统提示 + 对话历史 + 文档 + 当前问题
- 输出(completion):模型生成的回答
两者共享窗口配额。输入越长,能用于输出的空间越少。
超出上下文窗口会发生什么?
- 不同 API 处理方式不同:截断(丢掉最早的内容)/ 报错 / 自动压缩
- 截断后模型对早期信息一无所知——就像跟一个失忆的人说话
Context Window vs 记忆:
上下文窗口不是「记忆」,是「工作台」。每次对话开始都是空白的工作台,对话结束内容消失。如果想让模型「记住」之前说的事,必须把那些内容手动放进新对话的 prompt 里。
Question
- 上下文越长,模型性能会下降吗?(→ 见 Context Rot)
- RAG(检索增强生成)和上下文窗口扩展是什么关系?
- 训练时看到的上下文长度和推理时支持的上下文长度为什么可能不一样?
See Also
LLM
Token
Context Rot
Context Isolation
Reference
- 2026-03-24 λ-RLM 论文调研(核心概念)
- https://arxiv.org/abs/2603.20105
- 给普通人的LLM入门
YoYo’s Note
上下文窗口是理解 LLM 局限性的钥匙。
「为什么 AI 记不住上周说的事」「为什么处理长文档会犯错」「为什么 API 那么贵」——三个问题的答案都和上下文窗口有关:
- 没有跨 session 记忆 → 必须每次重新喂给它
- 长文档超窗口 → 会「忘记」开头(Context Rot)
- 输入 token 费钱 → 塞进去多少 token 就花多少钱
实用原则:上下文窗口是有限的珍贵资源,把最重要的信息放在最前面或最后面——模型对中间部分的注意力最弱(这个现象叫「lost in the middle」)。